﻿<html>
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <title>VietOCR.NET - Un 'interfaccia grafica per Tesseract OCR</title>
    <style type="text/css">
        .style1
        {
            font-size: x-small;
        }
    </style>
</head>
<body>
    <div>
        <h2 align="center">
            VietOCR.NET</h2>
        <h3>
            DESCRIZIONE</h3>
        <p>
            <a href="http://sourceforge.net/project/showfiles.php?group_id=153105">VietOCR.NET</a>
            è un'interfaccia grafica per <a href="http://code.google.com/p/tesseract-ocr/">Tesseract
                OCR engine</a>, fornisce supporto per il riconoscimento dei caratteri per i
            formati immagine più comuni. Il programma dispone di software di post-elaborazione
            che aiuta a correggere gli errori che susseguono nel processo di riconoscimento,
            aumentando il grado di precisione del risultato. Il programma può anche funzionare
            come applicazione console, eseguendo i comandi tramite linea di comando.
        </p>
        <p>
            L'elaborazione in batch è ora supportata. Il programma controlla una cartella per
            ricercare il file della nuova immagine, che elabora automaticamente attraverso il
            motore OCR, e salva i risultati in una cartella di output.</p>
        <h3>
            REQUISITI DEL SISTEMA</h3>
        <p>
            <a href="http://www.microsoft.com/downloads/details.aspx?familyid=5B2C0358-915B-4EB5-9B1D-10E506DA9D0F&amp;displaylang=en">
                Microsoft .NET Framework 2.0 Redistributable</a>.</p>
        <p>
            Se incontri un messaggio d'errore del tipo: "<i>Impossibile caricare il file 'tesseract,
                Version=1.0.0.0, Culture=neutral, PublicKeyToken=null' o precedenti. Questa applicazione
                non può essere avviata in quanto la sua configurazione non è corretta. Reinstalla
                l'applicazione per risolvere il problema. (Exception from HRESULT: 0x800736B1)</i>"
            mentre si avvia VietOCR.NET, è necessario installare: Microsoft Visual C++ 2008
            SP1 Redistributable Package (<a href="http://www.microsoft.com/downloads/details.aspx?FamilyID=a5c84275-3b97-4ab7-a40d-3802b2af5fc2&amp;displaylang=en">x86</a>,
            <a href="http://www.microsoft.com/downloads/details.aspx?familyid=BA9257CA-337F-4B40-8C14-157CFDFFEE4E&amp;displaylang=en">
                x64</a>).</p>
        <h3>
            INSTALLAZIONE</h3>
        <p>
            Se non hai l'autorizzazione per installare il programma nella cartella <tt>C:\Program
                Files</tt>, puoi specificare un'altra cartella di installazione nell'aposito
            box di dialogo.</p>
        <p>
            Il supporto per lo scnnering viene fornito da Windows Image Acquisition Library
            v2.0, che richiede Windows XP Service Pack 1 (SP1) o superiore; la libreria è inclusa
            in Windows Vista e 7. Per installare la libreria WIA , copia il file <tt>wiaaut.dll</tt>
            nella cartella <tt>System32</tt> (posta in <tt>C:\Windows\System32</tt>) ed esegui
            tramite linea di comando:</p>
        <blockquote>
            <p>
                <tt>regsvr32 C:\Windows\System32\wiaaut.dll</tt></p>
        </blockquote>
        <p>
            Il supporto PDF è possibile grazie a <a href="http://sourceforge.net/projects/ghostscript/">
                GPL Ghostscript</a>. Dopo l'installazione della libreria, verificare la dinamica
            del caricamento della libreria <tt>gsdll32.dll</tt> è nel percorso di ricerca impostando
            nel campo <tt>Path</tt> variabile , che è accessibile tramite il Pannello di controllo
            di Windows System &gt; Advanced tab &gt; Environment Variables.Per esempio aggiungere
            <tt>Path</tt> alla variabile per GS version 9.10:</p>
        <blockquote>
            <p>
                <tt>;C:\Program Files\gs\gs9.10\bin</tt></p>
        </blockquote>
        <p>
            La funzionalità di controllo ortografico è disponibile attraverso Hunspell, il cui
            <a href="http://wiki.services.openoffice.org/wiki/Dictionaries">dizionario</a> (<tt>.aff</tt>,
            <tt>.dic</tt>) deve essere posto nella cartella <tt>dict</tt> di VietOCR.</p>
        <h3>
            ISTRUZIONI</h3>
        <p>
            Il <a href="http://code.google.com/p/tesseract-ocr/downloads/list">Pacchetto Lingue</a>
            per Tesseract dovrebbe essere decompresso nella cartella di installazione <tt>tesseract</tt>
            , i file, i cui nomi iniziano con le lettere ISO639-3 , verranno inseriti nella
            sottocartella <tt>tessdata</tt>. VietOCR fornisce anche il supporto per il download
            e l'installazione dei pacchetti lingua selezionata attraverso il <em>Download Pacchetti
                Dati</em>, che si trova nel menù. A seconda della posizione della cartella <tt>tessdata</tt>,
            è possibile che venga richiesto di eseguire il programma come amministratore per
            essere in grado di installare i dati scaricati, come ad esempio in <tt>C:\Program Files</tt>.</p>
        <p>
            I dati nella lingua vietnamita sono stati generati per Times New Roman, Arial, Verdana,
            e font Courier New. Pertanto, il riconoscimento risulta migliore per le immagini
            che hanno le grafie di caratteri simili. Per le immagini OCR che hanno grafia dei
            caratteri diversi dai caratteri supportati generalmente bisognerà <a href="http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract">
                creare</a> un altro pacchetto di lingua dati appositamente per quei caratteri
            tipografici. Dati linguistici per alcune tipografie VNI e TCVN3 (ABC) sono stati
            anche aggiunti nelle ultime versioni.</p>
        <p>
            Le immagini da acquisire devono essere scansionate ad una risoluzione di almeno
            200 dpi fino a 400 DPI in modo monocromatico (bianco e nero) o in scala di grigi.
            La scansione a risoluzioni più elevate non necessariamente si traduce in una migliore
            precisione del riconoscimento, che attualmente può essere superiore al 97% per i
            linguaggi Vietnamiti, e che per la prossima versione di Tesseractsono previsti miglioramenti.
            Anche così, i risulatati effettivi dipendono ancora molto dalla qualità del dell'immagine
            acquisita. Le impostazioni tipiche per la scansione sono 300 DPI e 1 bpp (bit per
            pixel) in bianco e nero oppure in scala di grigi a 8 bpp tramite immagini TIFF o
            PNG.</p>
        <p>
            La modalità <em>Screenshot</em> offre risultati migliori per immagini con risoluzione
            più bassa, come serigrafie, che vengono riscalate a 300 DPI.</p>
        <p>
            Oltre all' algoritmo integrato di post-elaborazione del testo, è possibile aggiungere
            il proprio schema personalizzato del testo tramite un file di testo denominato <tt>x.DangAmbigs.txt</tt>,
            dove x è il codice ISO639-3 della lingua. La codifica UTF-8 deve contenere lo stesso
            numero di coppie <tt>vecchiValori = nuoviValori</tt>.</p>
        <p>
            Alcuni strumenti integrati sono forniti per unire più immagini o file PDF in un
            unico documento. Altre per comode operazioni di OCR, o per dividere un file PDF
            in qdocumenti più piccoli se è troppo grande, che può causare rallentamenti al programma.</p>
        <h3>
            POST ELABORAZIONE</h3>
        <p>
            Gli errori di riconoscimento possono generalmente essere classificati in tre categorie.
            Molti degli errori sono legati ai caratteri maiuscoli e minuscoli - per esempio:
            mamma, mAmma - che possono essere facilmente corretti da editor di testo Unicode.
            Molti altri errori sono il risultato del processo OCR, ad esempio mancano segni
            diacritici, lettere sbagliate con forme simili, ecc - cane - canè, patata - pataca,
            scur0 - scuro, la - 1a, è - é. Questi possono anche essere facilmente corretti dai
            programmi di controllo ortografico. La funzione di post elaborazione può aiutare
            a correggere gli errori elencati sopra.</p>
        <p>
            L'ultima categoria di errori è la più difficile da rilevare perché sono errori di
            semantica, il che significa che le parole sono voci valide nel dizionario, ma sono
            sbagliate in quel determinato contesto - ad esempio, ce - c'è, fa - fà. Questi errori
            devono essere corretti manualmente attraverso il confronto con l'immagine originale.</p>
        <p>
            Di seguito sono riportate le istruzioni su come correggere le prime due categorie
            di errori OCR utilizzando le funzionalità implementate:</p>
        <ol style="margin-top: 0in" start="1" type="1">
            <li>Gruppo linee. Le linee devono essere raggruppate al paragrafo a cui appartengono,
                una volta eseguito l'OCR, ogni riga diventa un carattere di separazione all'interno
                del paragrafo. Utilizzare <i>Rimuovere le interruzioni di riga</i> che si trova
                sotto la voce <i>Formato</i> del menu. Si noti che questa operazione potrebbe non
                essere necessaria per le poesie.</li>
            <li>Selezionare <i>Modifica carattere</i>, che si trova nel menù <i>Formato</i> scegliere
                <i>Carattere Frase</i> per correggere la maggior parte degli errori riguardanti
                il carattere delle lettere. </li>
            <li>Correggere gli errori di ortografia con l'opzione <i>Controlla Ortografia</i>.</li>
        </ol>
        <p>
            Attraverso il processo sopra citato, la maggior parte degli errori comuni possono
            essere eliminati. I restanti errori semantici sono di norma pochi, ma richiedono
            un redattore umano per essere corretti attraverso il confronto con l'immagine originale.</p>
        <p>
            Se hai qualche domanda scrivila sul <a href="http://sourceforge.net/projects/vietocr/forums">
                Forum di VietOCR</a>.</p>
        <hr/>
    </div>
</body>
</html>
